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Caract6ristiques de Trois Systemes Informatiques 
de Transcription Phongtique et Graph6mique 



Le but de cet article est de donner une description g6n6rale de l'analyse qui sert de support aux logiciels 
suivants: 

LI Pour ce logiciel, le texte d'entree est en typographie standard. Le texte de sortie est une transcription 
phon6tique avec marqueurs pour les groupes rythmiques. 

L2 Pour ce logiciel, le texte d'entrde est en t>pographie pauvre. Le texte de sortie est une transcription 
phon6tique avec marqueurs pour les groupes rythmiques. [Par typographie pauvre, nous entendons une 
typographie sans accents et sans c6dilles, tout en majuscules ou en majuscules et minuscules.] 

Pour LI et L2, les sch6mas intonatifs sont 6tablis par l'utilisateur en fonction des possibility du 
synth6tiseur de parole. 

L3 Pour ce logiciel, le texte d'entrde est en typographie pauvre. Le texte de sortie est en typographie 
standard. 

Nous desirons consid6rer ces trois logiciels conjointement parce que les principes d'analyse sont 
f ondamentalement les memes et que les diff6rences qu'il faut 6tablir entre ces trois logiciels aident & mieux 
discerner la nature des problfcmes qu'il faut r6soudre. 

Le linguiste qui d6sire pr6parer ce type de logiciel doit: 

1. Etablir un systeme de transcription, c'est-k-dire un syst&me de correspondance entre les formes 
graph6miques et phon6tiques pour les logiciels LI et L2 et un systeme de correspondance entre la 
typographie pauvre et la typographic standard pour le logiciel L3. 

2. Etablir une analyse linguistique qui determine la catdgorie grammaticale de chacun des mots du texte 
d'entrde. 

3. Etablir une analyse contextuelle qui, par exemple, permet de d6terminer si, en l'absence d'une solution 
linguistique, le mot fils appartient au domaine famille ou aux domaines couturelelectriciielradiol ', etc. 

Systeme de transcription 

II s'agit de mettre sur pied un systeme qui donnera la prononciation ou les prononciations de mots tels que: 
LI appendicite, damner, diagnostic, gemment, antiseptique, fib, notions... 

L2 ACCORDEON, AVANCA, BEAUTE, AMENERA, POELE, AVIONS, FILS, PATE, JEUNE... 

et l'orthographe ou les orthographes standard des mots en typographie pauvre: 

L3 BAPTEME, APERCU, NAIF, FORET, CHASSE ... 

II est possible de preparer un lexique qui contiendrait toutcs les formes dc tous les mots (y compris les 
noms propres) d'un dictionnaire donn6 (le dernier Petit Larousse Illustr£, par exemple). Ce lexique 
contiendrait pr6s dc 500 000 mots puisque les verbes ont au moins 39 formes diffcrcntcs (aimer, aime, 
aimons, aimerait t aimai, aimant, etc.) et que les noms ct adjectifs pcuvent avoir jusqu'& cinq formes (beau, 
bel, beaux, belle, belles). La taillc en octets d'un tel lexique d6pcndrait du systeme dc transcription utilise 
(IPA, par exemple), mais il faudrait compter au moins une dizaine de millions d'octets; unc telle dimension 
en rendrait l'emploi difficile pour certains utilisatcurs potenticls et poscrait des problfcmcs de transport 
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d'une machine k une autre. Mais le ddfaut essentiel d'un systfcme de transcription limits k un lexique serait 
qu'il ne pourrait pas traiter toutes les formes pr6fix6es puisque cet inventaire est illimite. Le pr£fixe ANTI, 
par exemple, peut s'utiliser pratiquement avec n'importe quel mot: ANTIZINC serait compris et prononcd 
correctement par tout francophone; le mot ANTISEDA, qui est maintenant courant, n'est pas dans le dernier 
Petit Robert (1990) ou le dernier Petit Larousse Illustre (1991). 

Dans un manuel publid en 1985 1 , nous avons decrit un systfcme qui r6duit considdrablement la taille du 
lexique (moins de 21000 mots pour LI et environ 29000 mots pour L2 et L3) et qui permet de traiter les 
ndologismes. Le texte d'entr6e suit cette route: 

1 . Lexique depressions 

2. Lexique de mots individuels 

3. Table des prefixes (et retour k 1 si un prdfixe est mis en mdmoire) 

4. Table des racines 

5. Table des terminaisons 

6. Mise en mdmoire du s final et retour k 1 

7. Regies de transcription 

Ce travail a exigd beaucoup de soin et de temps, mais il n'a pas pr6sent6 de difficultes insurmontables. II a 
6te grandement facility par le grand nombre de livres et d'articles k ce sujet et par l'existence de 
dictionnaires inverses et de dictionnaires de rimes. 

[Ce systkme traite correctement les mots et les noms propres d'origine 6trang6re qui sont familiers k la 
plupart des personnes de langue frangaise, mais il est Evident, par exemple, que nous ne pouvons pas 
pretendre pouvoir transcrire correctement tous les mots et tous les noms propres qui pourraient se trouver 
cbns un article relatant un voyage en Russie.] 

Heterophones et h6t6rographes 

En etablissant ce systkme de transcription, on rencontre des mots dont la prononciation (LI et L2) ou 
Torthographe (L3) est ambigu£. 

Logiciel L1: 

A. Sans compter les noms propres et les abrdviations, nous n'avons trouvd que 147 mots ambigus; ils se 
r6partissent comme suit: 

46 pour le contraste Verbe (premiere personne du pluriel) - Nom pluriel: 

acceptions. adoptions, affections, attentions, collections, concoctions, contentions, contractions, 
dations, desertions, detections, detractions, dictions, diffractions, editions, electrocutions, 
exceptions, excretions, executions, exemptions, infections, injections, inspections, intentions, 
interceptions, interjections, inventions, mentions, notions, objections, oignons, options, 
persecutions, portions, prospections, rations, reeditions, refractions, reinventions, relations, 
retractions, secretions, tractions, transitions, translations, trillions 

26 pour le contraste Verbe (troisteme personne du pluriel) - Nom/Adjectif: 

affluent, coincident, confluent, content, convergent, couvent, detergent, divergent, dolent, 
emergent, equivalent, evident, excellent, expedient, feculent, ferment, influent, insolent, negligent, 
parent, president, resident, somnolent, talent, urgent, violent 



1 F. Marty, R. Hart, Computer Programs to transcribe French Text into Speech: Problems and suggested solutions, Technical Report 
No LLL-T-6-85. Language Learning Laboratory, University of Illinois, Urbana, 1985 
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20 pour le contraste Infinitif - Nom singulier: 

bitter, boxer, carter, corner, driver, ester, flipper, interviewer, manager, mater, palmer, piper, 
placer, porter, poster, reporter, sprinter, squatter, stripper, supporter 

55 divers: 

as, auto, beta, bis, bois, bus, cacher, campos, cassis, chut, convient, cossus, done, est, exprfcs, fier, 
fils, flous, forte, gens, haste, h61as, jet, job, lacs, las, lias, lis, lut, minerai, obvient, os, oui'e, 
pagaye, papas, plus, porto, pressent, pub, punch, ras, raya, rhume, rit, sens, seps, soit, suspense, 
talus, tous, transit, trias, truste, vis, y 

Lorsqu'une majuscule est pr£sente, certains mots peuvent etre h6t6rophones. Nous avons rencontrd et 
plac6 dans notre lexique les mots suivants: Ben, But, Condom, Dallas, Damas, Duras, Eu, Forez, 
Havas, Huez, Job (3 prononciations), Lot, Marc, Rigis, Riez, Rodez, Singer, Suez. Pour ces contrastes, 
l'analyse linguistique ne pose g6n£ralcment pas de problfcme: 

Eu est une ville de Normandie... 
Eu egard & votre iequete du ... 

Les abr6viations prdsentent un problfcme particulier car leur prononciation depend parfois du contexte 
(av. qui peut etre avant ou avenue, S qui peut etre sud ou la lettre s). Nous avons du faire un choix et 
avons placd dans le lexique ^expressions les combinaisons qui sont les plus frdquentes. Exemples: 

av. J.C. Ch.de Gaulle lat. N loc.cit. 

B.duR. km/h lieut. col. mat.gr. 

et, en plus, nous faisons une analyse contextuelle pour E, S, N, O. 

B. Cet inventaire appelle les remarques suivantes: 

1. Dans certains cas, les deux formes du mot appartiennent & la meme cat6gorie grammaticale (jet, 
fils, os, gens, pub, lacs, done, etc.), mais la plupart appartiennent & des categories diff&entes (y, 
est, fier, plus, tous, violent, reporter, bus, as, vis, sens, soit, convient, etc.). 

2. Certaines de ces ambiguit^s existent aussi avec un s final (jets, rhumes, etc.). 

3. Normalement Tambiguitd disparait lorsqu'un prdfixe est utilise (rejet, preparent, revis, 
dementionSy etc.). 

4. Pour presque tous les hdt&ophones, une prononciation est beaucoup plus frSquente que l'autre 
(attentions, urgent, porter, y, vis, soit, etc.) ou meme extremement rare (auto, cacher, cossus, 
gens, lut, oignons, papas, placer, ras, rit, talent, etc.). 

5. Certaines ambigu'itcs supposent une opposition phonologique qui n'est pas faite par tous les 
francophones (beta, bois, minerai, etc.). 

6. Certains mots ne sont presque jamais employes (campos, haste, obvient, seps, etc.). 

C. Deux h6t6rophones sont beaucoup plus frequents que les autres. Dans un textc de 10 000 mots, on 
trouve environ 160 h6terophones. Sur ces 160: 

• environ 110 sont pour le mot est et, sauf dans les textes specialises, il s'agit presque toujours du 
verbe. 

• environ 40 sont pour le mot plus et, dans la plupart des cas, la prononciation est /ply/. 

• pour le reste, on trouve un ou deux cmplois dc mots appartcnant aux autrcs categories (mais tous 
semble avoir un 16ger avantage). 
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Un bon logiciel doit effectuer la disambiguisation de tous ces mots, mais il est important de constater que, 
meme si nous n'avions aucune rdgle (si est 6tait toujours traitd comme verbe, par exemple), le nombre 
d'erreurs dues exclusivement h une absence totale de rfegles de ddsambigui'sation serait g6n6ralement 
infdrieur h 5 pour un texte de 10 000 mots. 

Logiciel L2: 

Le nombre de mots hdtdrophones passe h prds de 5 000; un de ces mots a quatre prononciations (COTE = 
cote, cote, cote, cotf). 

Le nombre de mots dans chaque cat6gorie grammaticale varie considdrablement; 

2 941 dans la catdgorie verbe/participe passd (AFFIRME) 

1 259 dans la catdgorie nom/verbe/participe passd (MERITE) 

68 dans la catdgorie adjectif/verbe/participe passd (INDIGNE) 

131 dans la catdgorie adjectif/nom/verbe/participe pass6 (CHAMPIONNE) 

[Ces chiffres ne comprennent pas: (a) les mots qui se composent d'un des prefixes de notre 
table + un mot de notre lexique (ex.: REAFFIRME), (b) les formes en S final (ex: 
AFFIRMES, HOMMES, GENTILS), (c) les mots en -ONNE qui sont trails sdpardment 
lorsqu'ils n'appartiennent qu'h la catdgorie verbe/participe passe (ex.: AB ANDONNE).] 

et un seul par catdgorie pour DE, NE, ENTRE, MAIS, ES, CONTRE, etc. 

II y a des oppositions qui sont particulidrement difficiles k rdsoudre. Exemples: 

ILS SONT INDIGNES. (indignes/indignds) 

CEST UN BEAU DOUBLE. (double/doubld) 

LE MARCHE EST FERME. (ferme/fermd) 

CHAQUE RETRAITE. (retraite/retraitd) 



Logiciel L3: 

L'inventaire des mots hdtdrographes est presque le meme que celui des mots hdtdrophones de L2 mais 
certains hdtdrophones ne sont pas hdtdrographes: 

FILS, JET, LACS, VIOLENT, AS, VIS, FORTE, etc. 

et certains homophones sont hdtdrographes: 

DU (du/du), OU (ou/ou), SUR (sur/sur), FORET (foret/foret), FUT (fut/fut), DES (des/dds/dds), 
MANDAT (mandat/mandat), etc. 

Pour rds^dre les probldmes posds par les hdtdrophones et les hcterographes, il faut faire appcl k l'analyse 
linguistique et a l'analyse contextuelle. 



CESTTROP SALE. 
NOUS REVERONS. 
VOUS DEFEREZ. 



(sale/said) 

(reverons/rdvdrons) 

(ddferez/ddfdrez) 
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Analyse linguistique 



Cette analyse linguistique est indispensable puisqu'il faut ddterminer la catdgorie grammaticale de chaque 
mot du texte d'entr6e afin: 

a. de choisir la prononciation correcte des h6t6rophones: 
LI est, tous, plus, president, notions ... 

L2 EST, TOUS, PLUS, PRESIDENT, NOTIONS, AFFIRME, NEGLIGE, MAIS .. 
ou Torthographe correcte des h6t£rographes: 

L3 AFFIRME, NEGLIGE, MAIS, FORET, TACHE, PECHE, GENE ... 

b. d'dtablir pour LI et L2 les groupes rythmiques et, pour chaque groupe rythmique, de choisir les 
liaisons qui seront faites et les e instables qui seront prononcds. 

Difficultes presentees par I'analyse linguistique 

L'analyse linguistique — par ordinateur — est particulterement difficile en fransais car certains des mots 
les plus frequents appartiennent k plusieurs catdgories grammaticales. Nous utiliserons les abrdviations 



suivantes: 



N nom 
P pronom 



D ddteiminatif 

Pp participe passd 

Nm nom masculin 

Nf nom fdminin 



A adjectif 
I infinitif 
Adv adverbe 



Ppt participe prdsent 

Ppm participe passd masculin 

Ppf participe passd fdminin 



V verbe 

C conjonction 

Pr prdposition 

Ppt participe pr6sent 



Certains mots appartiennent h deux catdgories: 



D,P 
Pr,P 
N, V 



N, A 



N,I 

N,Pr 

N, Adv 

N,Pp 

V,Pr 

A,Pr 

P,Pp 

etc. 



le, la, les, leur... 
en 

Plus de 1000 en typographic standard: place, avions, voile, montre, 
demande, avance, savons... 

Plusieurs centaines car un grand nombre d'adjectifs peuvent fonctionner 

comme noms: nouvelle, pauvre, vieux, frais, moyen... 

boucher, avoir, pouvoir, sourire... 

sous, vers... 

pas, bien, rien ... 

et£, necessite... 

entre 

sauf 



tu 



certains appartiennent h trois categories: 



N, A, V 
N,V,Pp 
N, A, Adv 



double, critique, lache, aveugle, trouble, vide... 
fait, 6crit, conduit, bus., 
fort, droit, franc. 



etc. 
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et quelques-uns appariiennent h quatre categories: 

N, A, V, Adv court, ferme 

N, A, Pr, Ppt suivant 



etc. 



En typographic standard, le nombre de catdgories ambigufcs est d'environ 150. En typographic pauvre, il 
faut ajouter une centaine de categories qui n'existent pas en typographic standard: 

V, Pr, Pp ENTRE il entre; entre nous; il est entrd 

N, D, C DES les d6s; des livres; d6s demain 

Adv, C OU ou je vais; vous ou moi 

Nm, Nf, V, Ppm, Ppf TRAITE un trait£; une traite; il traite; il a trait£; il a tiaite 

Nm, Nm, A, V, Pp DOUBLE un double; un doubld; coup double; il double; il a doubl6 

Nf, A, V, Adv, Pp FERME une ferme; id6e ferme; il ferme; croire ferme; il a ferm£ 

etc. 

Les categories qui sont communes aux deux typographies ont g&idralement plus de mots en typographic 
pauvre; par exemple, le contraste Verbe/Participe passS a environ six fois plus de mots en typographic 
pauvre qu'en typographie standard, mais cette diffdrence de quantity ne cr£e pas un probteme 
supptementaire puisque les memes regies d'analyse peuvent s'appliquer. 

Ce qui cr6e un probl&me, c'est: 



1. 



le fait qu'il y a da vantage de catdgories & ddsambiguiser en typographie pauvre 



2. le fait que certains contrasts qui facilitent considdrablement l'analyse en typographie standard (aid, 
defde, nelni, des/dts/dts, ou/ou, la/Id, sur/sur, mais/mais, duldu, etc.) disparaissent en typographie 
pauvre. Leur absence fait que le nombre de regies d'analyse qui est d'environ 1 300 en typographie 
standard passe b plus de 1 1 500 en typographie pauvre. 

Marqueurs de phrase: 

II faut ddfinir les conditions dans lesquelles les caracteres: 

t • ? 
. , . . 

sont des marqueurs de phrase. CeUe analyse est particulifcrement difficile pour le point. Exemples: 

MM. Duval et Cros ont lu l'art 10 dans votre lettre du 15 cour. et ... 
II rSvoqua T&ii:. Louis XIV d6clara que ... 
II acheta l'6diL Larousse et ... 



Choix de la m6thode d'analyse linguistique 

L'ideal serait une mdthode de type arborescent qui analyserait chaque phrase (chaine de mots entre deux 
marqueurs de phrase) dans son entieretd et attribuerait une categorie grammaticale et une fonction 
syntaxiquc a chaque mot. 

Nous nous sommes heurtSs h deux obstacles: 

1. La longueur des phrases: L'analyse arboresccntc dcvicnt quasiment impossible si une phrase a plus 
dune centaine de mots. Or, chez certains auteurs (Proust, Bo?kett, etc.) ou dans certains domaines 
(sociologie, sciences politiques, etc.), des phrases bcaucoup plus longues sont relativemcnt frequcntcs. 

2. La diversite syntaxiquc: L'esprit humain opfcre de telle manure qu'il n'est gucre conscient dc l'ampleur 
de cette diversity En l'absence d'un syst£me qui serait un clone de Intelligence humainc, nous devons 
faire appcl h un ensemble de schdmas ct de regies. C'est en tentant d*61aborer cct ensemble que l'on sc 



ERLC 
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rend compte que cette diversit6 est quasi infinie et qu'il semble toujours possible de construire des 
paires de phrases dont Tune fera 6chouer l'analyse: 

Le petit jeune homme qui travaille dans ce vieil atelier ccnstruit de pauvres mat6riaux en peu de 
temps pour faire face & l'inflation qui dure depuis de longues annfes doit etre renvoy6. (construit 
= participe passd) 

Le petit jeune homme qui travaille dans ce vieil atelier construit de pauvres mat6riaux en peu de 
temps pour faire face h l'inflation qui dure depuis de longues annfes et gagne beaucoup d'argent. 
(construit = 3e personne pr6sent) 

On ne peut gufcre arguer que ces phrases artificielles ne constituent pas un juste test car des phrases plus 
complexes sont frdquentes dans les romans et journaux: 

Sur sa lanc6e, on le voyait meme, si d'aventure il survivait h grand-mfere, se remarier comme son ami 
des ann6es d'apprentissage h Paris quand tous deux, vingt ans et sans le sou, assuraient la claque pour 
assister gratuitement aux concerts, lequel ami, aprfcs un rapide veuvage, venait de convoler en 
secondes et tardives noces avec une annoncde jeunette de tout de meme cinquante ans, mais de quoi 
donner des id6es h un grand-pfcre brutalement relev6 de son engagement de 1912. (Jean Rouaud, Les 
Champs d'honneur y Prix Goncourt 1990, Les Editions de Minuit, p. 50-51.) 

Quant h Tonton, si, plutot que de leur resservir, comme a ses lyc6ens tri£s sur le volet, un «je vous ai 
compris» d6)h us6 sous d'autres «chienlits», il leur expliquait tout simplement qu'il est h meme de les 
comprendre, car il connait leur galfere, ils en seraient tout 6tonn6s. (Erik Emptaz, L'art de traiter le 
probleme par les bandes, Le Canard Enchain6, 5 d£c. 1990) 

Pour certains psychanalystes, le mdrite dont il est ici question n'est pas celui d'un talent qui se ferait 
reconnaitre, comme en art, ni meme de la Constance dans un effort cr6atif, mais uniquement le mdrite 
du sacrifice, de la «peine» qu'on se donne, de la souffrance, en sornme, exig6e comme compensation 
de la puissance, excuse de la faute, rachat du p6ch6 avant meme qu'il ne soit commis. (Jean Daniel, 
Les religions d'un president, Grasset, 1988, p. 183). 

Et cette pr6sentation mddiatique, sexiste, elle aussi, dans son genre — la femme marin ne compte que 
quand elle est une jolie sirfcne qu'on peut prendre en photo sur le ponton est, elle aussi, un couteau h 
deux lames. (Sylvie Caster, Florence Arthaud: La femme voilie, Le Canard Enchaine, 21 nov. 1990) 

Dans l'incapacit£ de r6soudre tous les problfcmes posds par une mdthode de type arborescent, nous avons 
d£cid6 d'utiliser une analyse lin6aire, recursive, de gauche & droite et il nous semble que cette mdthode, 
aujourd'hui encore, est probablement la plus fiable et la plus facile & modifier lorsqu'il advient qu'une 
erreur doit etre corrigte. 

Description de la m&hode d'analyse linguistique 

Dans les cas peu frequents ou chaque mot de la chaine h analyser n'appartient qu'& unc scule categoric 
grammaticale, le module d'analyse est 6videmment contoum6: 

Ils travaillent pour mon pfcre. 

Pour ddterminer la catdgorie grammaticale des mots qui pcuvent appartcnir a plusieurs categories, il nous 
faut des informations sures au sujet des mots qui prdcfedcnt ou subent le mot h analyser. 

Ces informations nous sont donnccs: 
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1. par le lexique: 

Nous avons placd dans le lexique plus de 17 000 mots ou expressions qui n'appartiennent qu'ik une 
seule catdgorie grammaticale (pain, vient, Us, chef-d'oeuvre, etc.). 

2. par la table des terminaisons. Exemples: 

• tous les mots qui se terminent par -emment sont des adverbes sauf le verbe gemment. 

• tous les mots qui se terminent par -ez sont des verbes sauf chez, nez, lez,fez, merguez, quelques 
noms propres, et quelques mots ambigus (Suez, Forez, etc.). 

• tous les mots qui se terminent par "consonne + er" sont des infinitifs sauf quelques noms propres 
et environ 200 mots qui sont des noms (cancer, enfer, ver, etc.) ou des noms/infinitifs (toucher, 
pec her, etc.). 

Gdndralement, cette table traite correctement les ndologismes ou creations dphdmdres (sandwicherie, 
chausserie,foultitude y etc.) puisque les personnes de langue fran?aise sont conscientes de la rdpartition 
de ces terminaisons et choisiront, pour la creation d'un nom, la terminaison -isme plutot que la 
terminaison -ez. 

En moyenne, le lexique et la table des terminaisons attribuent une catdgorie grammaticale non-ambigufc k 
environ 60% des mots pour le programme LI et k environ 45% des mots pour les programmes L2 et L3. 
Par exemple, un test de 1595 mots, composd de 10 textes d'auteurs diffdrents, a donn6 les r6sultats suivants: 



Lanalyse linguistique concerne done environ 40% des mots pour LI et 55% des mots pour L2 et L3. 

Les mots qui exigent une analyse linguistique peuvent se trouver isolds (c'est-&-dire entre deux dldments 
dont la catdgorie grammaticale est sure): 

Je connais son man. (son = nom ou ddterminatif) 
ou en groupes de 2, 3, 4, etc. mots ambigus consdeutifs: 

II etait devant la porte de notre maison. 

ou dans des phrases ou chaque mot appartient h plusieurs categories gramrrmticalcs: 

Le pr6sident lut le poster. 
Lexcellent prdsident lut le poster. 
Lexcellent prdsident y lut le poster. 
Lexcellent prdsident y lut le violent poster. 
Lexcellent prdsident y lut exprds le violent poster. 
Lexcellent prdsident-bis y lut exprds le violent poster. 
Lexcellent prdsident-bis y lut exprds le violent poster ndgligent. 
etc. 

Lanalysc doit done: 

• ddcelcr pour chaque mot ambigu isold toutes les constructions ou cc mot pcut sc rencontrer ct 
ddtcrminer une solution pour chacune de ces constructions; par exemple, quclles sont les constructions 
ou le mot devant peut sc rencontrer ct quel les sont eel les ou il est une prdposition, ccllcs ou il est un 
nom, ct celles ou il est un participe prdscnt. 



Catdgorie grammaticale Catdgorie grammaticale Non-identifids par le 
non-ambigue ambiguS lexique ou les terminaisons 



LI 

L2 et L3 



60,3% 37,3% 2,4% 

45,2% 53,2% 1,6% 
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• d6celer pour chaque chaine de deux, trois, quatre, cinq, etc. mots ambigus cons&utifs toutes les 
constructions ou cette chaine peut se rencontrer et determiner une solution pour chacune de ces 
constructions; par exemple, cette chaine de quatre mots ambigus: 

d6terminatif/pronom + nom/verbe + ddterminatif/pronom + nom/verbe 

peut parfois Stre analyst sans faire appel aux mots qui pr6c6dent ou suivent: 

la rdserve le place 

puisquelaprdsencede le devant place r6sout le problfcme. Mais cet ensemble 

leur rdserve la place 

peut etre analys6 de deux fa^ons suivant le contexte: 

Elle leur rdserve la place... 

Elle dit que leur rdserve la place... 

II nous est vite apparu que le nombre de constructions et leur diversit6 dtaient tels qu'il nous serait 
impossible, in abstractor de percevoir tous les problemes et que la seule solution etait d'etablir et de 
modifier le module d'analyse au fur et h. mesure que nous faisions passer des textes par ce module. 

Au cours de ces dix demteres amines, des mrlliers de tests ont affin6 cette analyse lin6aire et l'ont 61evee a 
ce qui semble etre le quasi-maximum de se:, possibilitds; depuis 1987, la majeure partie de ces tests a 6te 
effectu6e au CNET de Lannion par Madame Danielle Larreur sur des textes d'une grande vari6te. 

Niveaux du systeme d'analyse linguistique 

Aprfcs avoir exp£riment6 plusieurs possibility, nous avons maintenant un systfcme qui comporte trois 
nivejux et qui utilise des ensembles de categories grammaticales. Uensemble 657, par exemple, contient 
les mots (verbes, pronoms objet, la negation ne> les pronoms relatifs qui, donu etc.) qui, dans un contexte 
donn£, placent n6cessairement le mot & analyser dans une catdgorie non-ambigufc; cet ensemble, par 
exemple, permet de :6soudre Tambiguitd pronom/preposition pour le mot en dans cette construction: 

Le gouvernement en place met/lui/ne/qui... 

1. Le niveau A ne s'applique qu'aux homophones et homographes; c'est une suite de regies de ce type: 

356 345 129 378 210 003 456 341 05 

Chaque rfcgle tente de ddsambigui'ser un ensemble de categories grammaticales (par exemple, tous les 
mots qui peuvent etre nom/verbe/participe passd: fait, conduit, permis, etc.). Cette rfcgle examine les 
quatre ensembles qui prdc&dent <it les trois ensembles qui suivent. La rfcgle se lit done ainsi: 

Si un mot qui appartient & l'ens^rnble 210 est pr6c6de de mots qui appartiennent aux ensembles 356, 
345, 129, 378 et s'il est suivi de mots qui appartiennent aux ensembles 003 456 341, ce mot est un 
verbe (05). 

Cette analyse est rdcursivc, c'ost-k-dirc qu'il est parfois ndcessaire d'op£rer plusieurs passages pour 
6tablir la catdgorie grammaticaie de tous les mots. Par exemple, la phrase: 

Ce vieux combat offre un espoir. 

exige deux passages. Au premier passage, ce, combat, et offre sont d6sambigms6s; au second passage, 
il est devenu clair que vieux ne peut pas etre un nom et il est class6 adjectif. 

2. Le niveau B est charg£ de retoucher Tanalyse. Les rares mots qui n'ont pas 616 ddsambiguVsds sont 
places par ddfaut dans la catdgoric la plus vraiscmblable, certains noms communs deviennent noms 
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propres, certains noms et adjectifs dont le nombre 6tait incertain (ga2, mauvais, par exemple) sont 
class6s singulier ou pluriel suivant le contexte. 

3. Le niveau C s'applique aux h6r6tophones et h6t£rographes; les regies ddterminent la catdgorie 
grammaticale et, par consequent, la prononciation ou rorthographe k utiliser. Puisque Tanalyse de 
certains de ces mots est particulifcrement difficile (convient) et importante (est, tous)> les regies 
utilises h ce niveau examinent les cinq ensembles qui prteMent et les quatre ensembles qui suivent le 
mot en cours d'analyse. De plus, nous pouvons sp6cifier certaines caract&istiques de ce mot: pr6sence 
ou absence de trait d'union, nature de la dernifcre lettre, majuscule ou minuscule, position du mot dans 
la phrase, etc. 



Fsabilite de Tanalyse linguistique: 

A. Dans les rares cas ou le signal linguistique est trop 61oign6, Tanalyse lin6aire ne ehoisit pas toujours la 
forme correcte. Exemples: 

1. Notre programme place somnolent dans la cat6gorie adjectif dans ces deux phrases parce que 
Tanalyse ne person pas que gens est le sujet de somnolent dans la deuxifcme phrase: 

Voici les braves gens qui aiment tant les vieux habitants de ce tout petit village somnolent 
(Adjectif) 

Mais les braves gens qui aiment tant les vieux habitants de ce tout petit village somnolent. 
(Verbe) 

2. Notre programme place menace dans la cat6gorie verbe dans ces deux cas parce que le signal 
linguistique (ET DITIDIT) est trop 61oign6. 

LE CHEF DU PERSONNEL MENACE DEPUIS LE DEBUT DES GREVES TOURNANTES 
EN JUIN DERNIER DE LICENCffiR SES EMPLOYES ET DIT QUE .... (MENACE = menace) 

LE CHEF DU PERSONNEL MENACE DEPUIS LE DEBUT DES GREVES TOURNANTES 
EN JUIN DERNIER DE PERDRE SON EMPLOI DIT QUE .... (MENACE = menac6) 

B. II existe des constructions et des combinaisons de mots qui restent ambigufis parce qu'il n'y a pas de 
signal linguistique qui permette de r6soudre Tambiguit6. EAemples: 



Programme L1: 

Les phrases qui acceptent plusieurs analyses linguistiques sont rares, soit parce que le nombre de 
constructions qui sont toujours ambigufcs est tits faible: 

Devant un tel (Norn), il diL.. Devant = pr6position ou participe pr6sent 

soit parce que TambiguTt6 exige pour se r6aliser un ensemble de facteurs dont Toccurrence est 
statistiquement faible. Par exemple, ces deux syntagmes sont frequents: 

D + N + V + D + N 

La fille regarde la t£l6vision. 

D + A + N + P + V 

La jolie fille la regarde. 

mais Tamalgame de ces deux constructions est rare puisqu'il exigc une suite de quatre mots appartenant 
chacun a deux categories grammatical: 

D + A/N + N/V + D/P + N/V 
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et cet amalgame ne peut etre ambigu que s ! il y a possibility d'accord en genre et en nombre pour les irois 
premiers mots et pour les deux derniers mots: 



Le vieux garde // la place. 


D 


+ 


A 


+ 


N 


+ 


P 


+ 


V 


Le vieux // garde la place. 


D 


+ 


N 


+ 


V 


+ 


D 


+ 


N 


Cette vieille manie // lecharme. 


D 


+ 


A 


+ 


N 


+ 


P 


+ 


V 


Cette vieille // manie le charme. 


D 


+ 


N 


+ 


V 


+ 


D 


+ 


N 



L'ambiguitd disparait lorsqu'il n'y a pas possibility d'accord: 

Le vieux // demande la place. 
La vieille // partage le charme. 
Le vieux garde // le place. 
Le vieux garde // les place. 

ou, dvidemment, lorsqu'il y a un signal linguistique: 

Le vieux // garde la place qui ... 
L'ambigui'td linguistique peut aussi se manifester dans les constructions suivantes: 

a. D + A/N + A/N/V + D/P + N/V 



La belle ferme le voile. 
La belle ferme le voile. 
La belle ferme le voile. 

b. D/P + N/V 

II ddcrivit le ddbut et le sort de la bataille. 
II attrape le chien et le sort de la salle. 

II expliqua le nouve&u cours et le but du projet des dtudiants. 
II accepta le nouveau breuvage et le but du bout des tevres. 

... et celui qui en attribue aux autres le mdrite. 
... et celui qui en donne aux pauvres le mdrite. 

c. A/N + N/V 

11 apporte le philtre et la bonne plante du rebouteux. 
II taille la vigne et la bonne plante du persil. 

d. Pr/P + N/V 

II accuse les pretres et le ministre en place dans ce pays. 
II recueille les enfants et le ministre en place dans cepays. 

e. Pr + D/P + N/I 

II est paiti sans le bouchcr. 
II est parti sans le boucher. 

f . A/N + A/N 

C'est un pauvre avcugle. 
C est un pauvre aveugle. 

g. D + N + A/Pp + Pr + D + N 

Je passe du texte dcrit h la prononciation. 
Je parle du texte dcrit h la reunion. 
(= qui a 6t6 dcrit a la rdunion) 



D + A + N//P+V 
D + N + A//P+V 
D + N//V + D + N 



D + N 
P+ V 

D + N 
P+ V 

D + N 
P+ V 



A + N//D + N 
N//V + D + N 



Pr+N 
P + V 



Pr + D + N 
Pr + P+I 



A + N 
Nr A 



D+N + A//Pr + D + N 
D + N//Pp + Pr + D + N 
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II confie les enfants trouvOs k la Croix -Rouge. 
II interroge les enfants trouvOs k la gare. 
(= qui ont OtO trouvOs k la gare) 

h. D + N + A/Pp + Pr + 1 

... les marches forcOes pour habituer les soldats. 
... les moyens dOployOs pour sauver les baleines. 
(= qui ont OtO dOployOs pour sauver les baleines) 



D + N + A//Pr + D + N 
D + N//Pp + Pr + D + N 



D + N + A//Pr + I 
D + N//Pp + Pr+I 



Et il semble que, si Ton analysait suffisamment de textes, on pourrait trouver une construction ambiguS 
pour pratiquement chacun des mots qui appartiennent a plusieurs categories linguistiques: 



a. Entre (proposition ou verbe): 

II plante les fleurs ici et entre les arbres dans le pre. 

II copie les chiffres ici et entre les donnOes dans l'ordinateur. 

b. Sauf (proposition ou adjectif): 

II est toujours sauf sous l'arbre. 
II est partout sauf sous l'arbre. 

II est toujours sauf sous l'arbre. 
II pousse toujours sauf sous l'arbre. 



(Proposition) 
(Verbe) 



(Adjectif: toujours sauf // sous) 
(Proposition: partout // sauf) 

(Adjectif: toujours sauf // sous) 
(Proposition: toujours // sauf) 



c. Tout (adjectif indOfini ou pronom indOfini) + bien que, pendant que, etc. 



Elle est jalouse de tout bien que tu acquiers. 
Elle est jalouse de tout bien que tu souffres. 

d. Verbe + trop + proposition: 

Vous travaillez trop // prOs de la maison. 
Vous travaillez // trop prOs de la maison. 

e. Son/Ton (nom ou dOterminatif): 

... et la prise de son aide. 
... et la valeur de son aide. 

f. Formes de tenir compte: 



(de tout bien // que tu) 
(de tout // bien que tu) 



(trop modifie travaillez) 
(trop modifie pres) 



(son = nom) 

(son as dOterminatif) 



... et la seule solution qui tienne compte des difficultOs prOsentes. 
... et la seule solution qui tienne // compte des avantages importants. 



Verbes qui sont singulier et pluriel: 

C est le X des X qui nous convient. 

Formes de trouver grace: 

La chouette a trouvO grace k ses yeux. 
La pOnitcnte a trouvO grace a ses yeux. 



(3e personne singulier ou pluriel) 



(a trouvO // grace k ses yeux) 
(a trouvO grace // a ses yeux) 



Programmes L2 et L3: 

L'absence d'accents et de cOdilles augmente les possibilitOs d'ambiguitOs linguistiques puisquc des 
oppositions utiles k l'analyse disparaissent: aid, la/Id, sur/sur, de/de, du/du, desldestdes, ou/ou t ne/ne, 
entrelentri, arrierelarriire, prOsent/participe passO (affirmelaffirme), etc. Exemples: 
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IL A DU POUVOIR. 


(du/du) 


LA FRANCE OU MEME PARIS NE L'ATTIRE PLUS. 


(ou/ou) 


JE M' AMUSE OU JE TRAVAILLE. 


(ou/ou) 


LA VDJLE OU IL EST NE LUI DONNE PLUS D' ARGENT. 


(ne/n6) 


IL A PRIS SA RETRAITE ET ACHEVE SA VIE A PARIS. 


(achfeve/achev6) 


Tf A rvFT TV TYCO HTDCC 

IL A DbUX uhb rlrkb. 


(des pipes/d6s pipes) 


OUT EST MARIE 9 


(Marie /m arie) 


UN DE NOUS DERA TOUT. 


(de/d6) 


CHAQUE LETTRE EN TffiNT COMPTE. 


(lettre/lettr6) 


CEST LE NOM DE CHAQUE FORET. 


(foret/foret) 


L£ FERMIER A LE GRAIN ET LE VALET A LA PAILLE. 


(a la paiUe) 


LE FERMIER A LE MARTEAU ET LE CISEAU A LA MAIN. 


(& la main) 


LA GARE OU LE TRAIN S'ARRETE. 


(ou) 


L* AUTOBUS OU LE TRAIN S'ARRETE. 


(ou) 


UN FEU ARRIERE. 


(arrifcre) 


UN ENFANT ARRIERE. 


(arri6re) 


JE SUIS SUR DES CHARBONS AR DENTS. 


(sur) 


JE SUIS SUR DES RESULT ATS PRESENTS. 


(sur) 


IL A, COMME TOUJOURS, DONNE SON ACCORD. 


(donn6) 


ET LUI, COMME TOUJOURS, DONNE SON ACCORD. 


(donne) 


LES FEUILLES, QUI SONT TRES SECHES, DONNENT... 


(sfcches) 


LES BOIS, QUI SONT TRES SECHES, DONNENT... 


(s6ch6s) 


LE FAIT QUE LE NOMBRE ELEVE DES LAPLNS EST... 


(61ev6) 


LE FAIT QUE LE CHEF ELEVE DES LAPLNS EST... 


(61fcve) 



Nous discuterons dans les deux prochaines sections les solutions qui peuvent 6tre apportdes h ces 
problfcmes. 

Analyse contextuelle 

L'analyse contextuelle peut etre utile dans ces trois cas: 

1. Elle peut ddterminer la prononciation des hdtdrophones et l'orthographe des h6t£rographes qui 
appartiennent h la meme catdgorie grammaticalc: 

... mes fils ... (/fis/ - /fil/) 

... LEUR COTE ... (cote/c6t£/cote) 

... NOUS GENERONS ... (g6n6rons/generons) 

2. Elle peut aider h nSsoudre certaines des ambiguites linguistiques mentionndes dans la section 
pr£c6dente. 

3. Elle peut aider & ddterminer le d6coupage de la phrase en groupes rythmiques dans les cas tres rarcs ou 
l'analyse linguistique est correcte, mais les fonctions restent ambigu&s. Exemples: 

Elle avait des fractures // de la tete aux pieds. 
plutot que: Elle avait des fractures de la tcte // aux pieds. 



Page: 14 



Technical Report LLL-T-19-91 



II faut chasser les clochards // du m6tro. 
plutot que: II faut chasser // les clochards du mStro. 

II veut prot6ger les musulmans // de l'lslam. 
plutot que: II veut protSger // les musulmans de l'lslam. 

Nous sommes sortis de ces bas-fonds // estomaques. 
plutot que: Nous sommes sortis de ces bas-fonds estomaques. 

Heureusement, dbs le lendemain, nous avons appris ce qui s'Stait passS // dans le 
Figaro. 

plutot que: Heureusement, dbs le lendemain, nous avons appris // ce qui s'Stait pass£ dans le 
Figaro. 

... un vin blanc // k consommer le soir. 
... un objet // propre a satisfaire leur desir. 

Description de l'analyse contextuelle 

L'analyse que nous utilisons compare le contenu s6mantique de la chaine en cours d'analyse et des deux 
chaines pr6c6dentes avec des listes de mots gdnSralement associ£s avec les champs contextuels des mots 
qu'il faut dSsambiguiser. Exemples: 

... ses fils Si l'analyse trouve deux mots associSs avec le sens /fis/ (ex: alni, marraine) et 

un seul avec le sens /fil/ (ex: laine), le sens /fis/ est choisi. Le sens /fis/ est aussi 
choisi si l'analyse trouve le meme nombre de mots pour chaque sens. 

... LA COTE ...: Si l'analyse trouve plus de mots assoctes avec le sens cote (ex: falaise, azur, 
corniche) qu'avec le sens cote (ex: cours, vente), le sens cote est choisi. 

Notre analyse tente aussi de d6terminer si le texte est au pass£ ou au prdsent ou s'il agit d'un feminin ou 
d'un masculin: 

IL A HESITE, RECULE DE NOUVEAU ET ABANDONNE. (recute, abandonnS) 

IL HESITE, RECULE DE NOUVEAU ET ABANDONNE. (recule, abandonne) 

JEANNE, QUI A ETE INQUIETE, DIT QUE ... (inquire) 
JEAN, QUI A ETE INQUIETE, DIT QUE ... (inqui6t6) 



Fiabilite de l'analyse contextuelle 

Ceite analyse contextuelle est utile, surtout pour les mots ou les champs sSmantiques sont xxbs differents 
ifils, lacs, pub, jet, etc.), mais elle est rudimentaire par comparaison avec le systfcme employ^ par l'etre 
humain. II ne semble gu&re possible, du moins dans un proche avenir, de programmer tout un ensemble de 
relations conceptueiles, de d6ductions, et d'infdrences qui pourrait examiner n'importe quelle situation et 
conclure, par exemple, que la phrase La belle ferme le voile decrit une femmc qui ferme le rideau parce 
qu'il fait froid, qu'il fait chaud, qu'il fait du soleil, quelle part en vacances, que son voisin la regarde, qu'elle 
va sc deshabiller, qu'elle a des invit6s, etc., ou que la phrase: 

La nouvelle alarme le peuple. 
est presque ccrtainement du type: 

D + N + V + D + N 
car il n'cst gu&rc concevable qu'une alarme puisse pcupler. 



IS 
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D'autre part, nous n'avons pas pu faire une analyse contextuelle pour toutes les possibilitds d'ambigui't6s 
linguistiques car, s'il est vrai que les phrases qui acceptent plusieurs analyses linguistiques ne se 
rencontrent que rarement dans les textes, il n'en reste pas moins qu'elles peuvent se pr6senter et, comme 
nous l'avons montr£, qu'elles peuvent se presenter pratiquement avec n'importe lequel des milliers de mots 
qui appartiennent aux categories Adjectif/hom, Verbe/Nom, Infinitif/Nom, etc. Pour tenter de rdsoudre 
toutes les possibility d'ambiguM linguisuque, il faudrait done pr6voir une analyse contextuelle pour 
chacun de ces mots dans chacune des constructions ou il peut se rencontrer, e'est-fc-dire accomplir un 
travail immense qui exigerait un code de plusieurs millions d'octets. 

Un tel travail ne semble pas justifi6 puisque le programme ne n6cessite l'analyse contextuelle que rarement 
et puisque, dans l'dtat actuel de nos connaissances, le taux de succ&s dans certains cas (boucher, INDIGNE, 
etc.) serait loin d'etre suffisant. 

Nous avons done fait un choix et nous avons limite notre analyse conceptuelle aux cas les plus importants 
et/ou les plus faciles. 

Dans le programme LI, l'analyse contextuelle ne s'applique qu'aux h6t£rophones pour lesquels l'analyse 
linguistiq" p , est impossible ou risque de rester ambigufc: bis, campos, cassis, convient, cossus, fils, forte, 
gens, haste, jet, job, lacs, las, ouie, pub, punch, suspense, y, Ben, But, Condom, Damas, Eu, Forez, Job, 
Lot, Marc, N, E, W, S, Rodez, Suez, 

et nous avons placd certaines combinaisons sures dans notre lexiqu^. Exemples: 

Alpe d'Huez est-il 

arrifcre-petits-fils il n'est 

compte-fils fier-fc-bras 

fils de laiton pied talus 

p6re et fils vis & vis de 

Pour les autres cas, nous tentons de choisir la forme la plus frequente. Exemples: 

le gouvernement en place (prdposition + nom) 

un pauvre savant (adjectif + nom) 

sans le boucher (ddterminatif + nom) 

Dans le programme L2, en plus des mots citds pour LI, nous traitons ARRIERE, COLON, COMTC, 
COTE, FERME, FOSSE, JEUNE, MARCHE, MODELE, PASSE, PECHE, SECRETE, TRAITE, les 
formes ambiguSs de REPARTER, 

et nous avons plac6 certaines combinaisons sures dans notre lexique. Exemples: 

UN FILM DOUBLE (doubl6) 

MARCHE DE DUPES (marchd) 

FONDE DE POUVOIR (fond6) 

JAMBON SALE (said) 

SOUFFLE AUX FRAISES (souffle) 

LES CHARGES DE FONCTION (charges) 

Pour les autres cas, nous tentons de choisir la forme la plus frdquente. Exemples: 

CHAQUE LETTRE (lettre, plutot que lettre) 

IL REPARAIT (reparait, plutot que reparait) 

IL HAIT (hait, plutot que hail) 

UN CAS ILLUSTRE (illustre, plutot que illustrc) 

IL DORT OU IL TRAVAILLE {ou, plutot que ou) 
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Dans le programme L3, nous avons supprimd les analyses pr6vues pour les h6t6rophones qui appartiennent 
h la meme catdgorie grammaticale (FILS, JET, LACS, PUB, etc.) puisqu'elles sont inutiles dans L3; nous 
avons ajoutd une analyse pour CHASSE (chasselchdsse), TACHE (tache/tdche), et les contrastes verbaux 
du type fit/fit, mourutlmourut. 



Les tests r6cents auxquels nous avons soumis les programmes LI, L2, et L3 indiquent que nous avons 
pratiquement attaint le maximum des performances que Ton peut attendre d'une analyse lindaire. Le dernier 
test (d'environ deux mille mots) donne les r6sultats suivants: 

1. Mots dtrangers: Ce test consent un article de journal avec deux noms propres 6trangers qui ne sont pas 
prononcds de fagon acceptable. 

2. Ambiguitds linguistiques: Ce test contient plusieurs ambiguit£s linguistiques (le pouvoir, en couronne, 
UN COUTEAU A DEUX LAMES, EXCUSE DE LA FAUTE, etc.) qui ne peuvent pas etre r6solues 
sans analyse contextuelle. Le programme LI fait trois analyses qui sont acceptables du point de vue 
linguistique, mais qui ne correspondent pas h la r£alit£ s£mantique (ex: le pouvoir est interprdte 
comme 'pronom + infinitif alors que le sens est 'ddterminatif + nom'); pour les programmes L2 et L3, 
le nombre passe k 5 (ex. LE COUTEAU A DEUX LAMES est interpr6t6 comme le couteau a deux 
lames alors que le sens est le couteau a deux lames). 

3. Erreurs d'analyse: Dans ce test, notre programme n'a fait aucune erreur d'analyse, c'est-a-dire que: 

a. les regies qui ont 6t6 appliqudes 6taient correctes, 

b. dans les cas ou un mot ambigu a traverse le module d'analyse sans rencontre* de regies qui 
puissent s'appliquer k ce mot, l'attribution linguistique par d6faut 6tait correcte, 

c. aucun signal linguistique ne s'est rdveld trop 61oign6. 

Cela ne signifie pas que tous les tests futurs seront sans erreurs d'analyse. II y aura certainement des 
tests ou le signal linguistique sera trop dloignd et ou des phrases ne seront pas analysees correctement 
par notre module; dans ce dernier cas, les regies ndcessaires seront ajout£es. 

Les rdsultats de ce test correspondent aux rdsultats obtenus par d'autres tests, c'est-i-dire une demi- 
douzaine de decisions critiquables pour un test d'environ 2000 mots. C'est une proportion extremement 
faible, mais il est vrai qu'une personne francophone cultivde aurait prononcd les deux mots 6trangers de 
fagon acceptable et aurait pu rdsoudre les cas d'ambiguit6 linguistique. Est-il encore possible de r6duire cet 
6cart? 

1. Mots 6trangers: 

N'importe quel mot de n'importe quelle langue peut apparaitre dans un texte frangais, en particulier dans les 
journaux, magazines, et rdcits de voyages. Accidentellement, nos regies de phon6tisation du frangais 
donnent une prononciation acceptable (lockstep, Friihling, difficoltd, etc.), mais, dans la plupart des cas, la 
prononciation est inacceptable. 

Unc personne cultivde — et prdcisdment parce que c'est une preuve de culture — sait comment elle doit 
prononcer dans son milieu social un grand nombre de mots et noms propres dtrangers. De plus, une 
personne cultivde qui rencontre pour la premiere fois un mot dtranger peut gdndralement en ddceler 
l'origine linguistique (par lc contexte ou l'aspect gdndral du mot) et cn donner une prononciation acceptable 
ou — au moins — qui ne soit pas risible. 
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II est tentant d'essayer d'6tablir un programme qui pourrait imiter la performance d'une personne cultiv6?., 
mais trois obstacles se pr&entent: 

a. Comment d6terminer qu'un mot ne doit pas passer par nos regies de phondtisation? II serait facile de 
d6terminer que keepsake, oats, Kronprinz, avvocato, Deng Xiaoping, Mickiewicz n'appartiennent pas 
au domaine franfais, mais que faire pour l'anglais paper, l'allemand Brot y 1'italien cambiare, etc. qui 
ont des combinaisons de lettres acceptables en franfais? Pour fctre certain de ddceler tous les mots qui 
n'appartiennent pas au domaine frangais, il faudrait que notre lexique contiennent toutes les formes de 
tous les mots et noms propres du fran^ais et que, par soustraction, tous les mots et noms propres non 
compris dans ce lexique soient consid6r6s 6trangers. 

b. Si un mot a 6t6 marque Stranger', comment peut-on determiner son origine linguistique? Les 
combinaisons de caract&res qui n'appartiennent qua une seule langue sont rares. Ecrire un programme 
qui puisse interpreter le contexte et l'aspect g6n6ral du mot ne semble pas realisable. 

c. II faudrait ensuite faire passer le mot par des regies qui en donnent une phon6tisation acceptable. Si le 
mot est espagnol, italien ou allemand, les difficultds ne seraient pas trop grandes, mais pour l'anglais 
— ou les rapports entre les formes 6crites et orales sont aussi complexes qu'en fran^ais — il faudrait 
un ensemble de rfegles de phondtisation et un lexique d'exceptions; les h6t6rophones (read, lead, wind, 
row, lives, etc.) exigeraient une analyse linguistique, analyse impraticable pour un mot anglais isol6 
dans un texte franfais. 

Ces obstacles ne semblent pas avoir de solutions et comme il est impossible de mettre dans notre lexique 
des millions de mots anglais, allemands, russes, espagnols, etc., nous avons adopt6 la solution suivante: 

a. Nous avons placd dans notre lexique plusieurs centaines de mots d'origine 6trang£re (ainsi que des 
mots bretons ou alsaciens) que les regies de phondtisation du franfais ne prononcent pas d'une fa^on 
satisfaisante. Exemples: 

Auschwitz, baby sitter, bagad, Beethoven, bowling, breeder, brushing, edelweiss, Goethe, 
Guebwiller, Heidelberg, Hemingway, hooligan, Huelgoat, huerta, in absentia, in extremis, jeans, 
kiwi, kleenex, kugelhof, meeting, outlaw, Paderewski, pretium doloris, Rubens, Schubert, 
Schwartz, Shakespeare, shakespearien, Shaw, sit-in, skin, skinhead, strip-tease, teen-ager, twist, 
Wagner, wehrmacht, zapateado, etc., etc. 

b. L'utilisateur du programme peut modifier la prononciation des mots contenus dans le lexique et peut 
ajouter autant de mots qu'il le d6sire avec la prononciation qu'il prdfere. 

2. Position du signal linguistique: 

Nous avons vu que, dans de rares cas, le signal linguistique est hors de port£e de notre analyse lin6aire et 
que l'analyse risque d'etre fausse; par exemple, dans une des phrases de la page 10, somnolent est marqu6 
adjectif alors que c'est un verbe. Dans ces phrases exceptionnelles, la position du signal linguistique dans le 
contexte gauche ou le contexte droit est imprdvisible et les syntagmes qui se trouvent entre ce signal et le 
mot en cours d'analyse sont aussi imprdvisibles: qui aiment tant pourrait etre qui disent ne plus aimer, qui 
font semblant d'aimer plus que jamais, etc. Ces phrases ne poseraient aucun problfcme k un enfant d'une 
quinzaine d'anndes ayant re$u une formation scolairc normale, mais il est clair que, dans de tcls cas, 
l'analyse lindaire risque d'dchouer. Nous ne connaissons pas de systfcme informatique qui, k l'hcure actucllc, 
soit capable d'analyser de telles phrases avec 100% de succes. 

3. AmblguTtes llngulstlques: 

Lorsqu'une ambiguTtd linguistique nc peut pas etrc rdsoluc par notre analyse linguistique ou notre modesic 
analyse contextuelle, notre programme fait un choix base sur des critbres de frequence; par exemple, 
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lorsque ie texte ne contient pas de signal linguistique qui permette de ddcider si boucher dans la chaine 
sans le boucher est un nom ou un infinitif, notre programme d6cide que boucher est un nom. 

Dans notre programme, nous avons deux categories pour les 48 homophones qui, comme boucher, peuvent 
etre noms ou infinitifs; une categorie contient 30 mots qui se rencontrent plus souvent comme infinitif que 
comme nom (ex: avoir, toucher) et Tautre contient 18 mots qui ont la frequence contraire (ex: clocher, 
officier). Dans notre programme actuel, les mots de chaque categorie sont traites de la meme fagon quelle 
que soit la construction. Nos tests ont montrd que cette s6paration en deux groupes n'dtait pas pleinement 
satisfaisante et que, dans certains cas, il aurait dte utile de consid6rer chacun de ces 48 homophones 
sdpardment afin que l'analyse linguistique puisse spdcifier que, dans la construction X, 33 de ces 48 mots 
sont des noms et que, dans la construction Y, 9 sont des infinitifs et que, dans la construction Z, ils sont 
tous des noms, etc. 

De m&me, il nous a paru au d6but de ce travail qu'il 6lait logique de placer dit et fait dans le meme 
ensemble linguistique puisque ces deux mots peuvent Stre verbe, participe passd, et nom; l'expdrience a 
montrd qu'il aurait 6t6 preferable de les sdparer car, dans certaines constructions ambigu&s, la probability 
'nom' est beaucoup plus dlevde pour /a// que pour dit. 

Notre programme divise les prdpositions en 18 groupes; nous sdparons, par exemple, celles qui ne peuvent 
etre suivies que d'un infinitif de celles qui ne peuvent etre suivies que d'un nom ou adjectif; pour les 
liaisons, nous sdparons les prdpositions monosyllabiques des autres. Lk encore, il aurait dtd pr6f6rable de 
pouvoir adresser chaque proposition sdpardment; par exemple, la proposition comme peut etre suivie d'un 
pronom sujet ou d'un pronom objet: 

Tu paries comme il/elle parle. 
Tu paries comme lui/elle. 

tandis que les autres prdpositions ne peuvent etre suivies que d'un pronom objet (sans lui, pour eux, avec 
lid, etc.). 

II s'agirait done de remplacer des entires dc groupc par des critdres individuels; par exemple, dans le 
programme LI, les 682 mots du type offre (verbe/nom fdminin), au lieu d'etre tous soumis aux memes 
entires, seraient traitds individueilemenL Etablir ces statistiques individuelles de frequence exigerait des 
milliers d'heures de travail car il faudrait ddterminer, pour chacun des milliers de mots qui appartiennent & 
plusieurs catdgories grammaticales, quel est, pour chacune des constructions ambigu&s ou ce mot peut se 
rencontrer, l'emploi le plus frdquenL Se lancer dans un tel travail pour essayer de modifier une demi- 
douzaine d'analyses critiquables dans un texte de 2000 mots ne semble pas justifid aujourd'hui, d'autant 
plus que nous ne pouvons pas etre certains que ce travail serait nettement positif. II faudrait, pour qu'il le 
soit, que la plupart des regies ddcoulant de cette recherche nous donnent des rapports au moins dgaux k 
80% contre 20%; apprendre que pouvoir, dans la construction X, est un nom dans 55% des phrases testees 
(contre 45% pour 1'infinitiO ne nous permcttrait pas d'ameliorer notre analyse. 

Nous pouvons done considercr que notre travail est termind puisque nous avons rdduit autant que nous le 
pouvions l'dcart qui sdpare ce que peut faire une machine de ce que fait une personne cultivee. Quelle que 
soit la mdthode employde pour l'analyse linguistique du frangais, il apparait douteux que cet dcart puisse 
etre rdduit h zdro. 

Ce constat n'est en rien ndgatif; nous voulons, au contraire, souligncr le fait que, en ce qui conceme 
l'analyse linguistique, la performance de la machine peut etre presque l'dgal de la performance humainc. 
Mais il est tout aussi important de ne pas contribucr & dveiller ou a maintenir de fausses espdrances quant 
au traitement gdndral des langues humaines par l'informatique. Sans doute, les recherches qui sont en cours 
par un grand nombre dc chercheurs dans des domaines complexes tels que la traduction automatiquc et la 
reconnaissance dc la parole (domaines qui, eux aussi, ddpendent dune bonne analyse linguistique) sont 
ndcessaires et seront utiles si leurs applications ne depasscnt pas le cadre ou elles sont performantes et 
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n'engendrent pas un ph6nomfcne de rejet qui nuirait aux linguistes tout comme aux informaticiens. Car, en 
effet, il n'est gufcre vraisemblable qu'un jour une machine puisse lire un texte en exprimant des sentiments 
de jalousie, d'amour, de haine, de joie, ou de tristesse, qu'elle puisse traduire automatiquement et sans 
erreurs les oeuvres de Proust, qu'elle puisse transcrire en orthographe standard et sans fautes d'accord une 
conversation entre deux interlocuteurs qui s'expriment sans modifier leur Elocution habituelle, qu'elle 
puisse converser avec une autre machine comme deux etres humains le font sur les sujets les plus divers, 
qu'elle puisse d6chiffrer aussi bien que nous le faisons les textes Merits & la main, qu'elle puisse d6crire 
oralement et par 6crit une photographie ou une sc&ne de la rue, qu'elle puisse analyser la prononciation d'un 
6tudiant etranger et sugg6rer des corrections, qu'elle puisse examiner un texte 6crit et corriger les fautes 
d'orthographe, d'accord, et de syntaxe, ou qu'elle puisse analyser cet article et en faire la critique. 



